iT邦幫忙

2023 iThome 鐵人賽

DAY 5
2
AI & Data

初次抓舉AI的世界系列 第 5

模型學習方式 D4 - 強化式學習

  • 分享至 

  • xImage
  •  

前幾天提到的學習方式都是將資料輸入模型,然後讓模型預測結果,而今天要來記錄的學習方式則有些不同,它需要讓模型不斷執行一連串的動作,來達到特定的最終目標


進入本日主題!

強化式學習(Reinforcement learning,RL)

訓練一個模型時,透過讓模型跟一個動態的環境互動,不斷嘗試各式各樣的行為,來學習正確地執行一項任務,
這種叫做嘗試錯誤(trial-and-error)的學習方法,會藉由嘗試錯誤的行為來適應環境,不需要預先標記任何資料,但會讓模型在學習的過程中不斷做出動作,然後根據環境反饋的好壞,來讓模型採取的行動獲得獎勵或懲罰,
通過這種方式,模型就可以自主地進行修正,使其能夠在無需人為干預或明確的程式指導下,就能夠做出一系列的決策,以最大化獲得獎勵(reward)。

強化學習的運作方式主要是依賴於動態環境中的資訊,這些資訊會隨著外部條件的改變而變化,而它的目標就是希望能找到一個最佳策略(Policy),可以最大化整個學習過程(episode)的獎勵

通常情況下,強化學習適用於無法獲得明確標籤或標準答案的情境,但能夠判斷行動結果的時候


想想看下面這個問題:
Q:如果今天在回家的路上發現前面道路被封起來了,你會怎麼辦?
回答:嘗試看看另一條稍遠的小路繞行

這就是強化式學習的概念,你會基於以前遇到過的經驗,嘗試不同的方法來解決問題。在這個過程中,不斷學習,以找到最有效的方式


上一篇
模型學習方式 D3 - 非監督式學習
下一篇
模型學習方式 D5 - 對比式學習
系列文
初次抓舉AI的世界30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言